Python KMeans 聚类单词

hadoop - 如何在不耗尽内存的情况下运行大型 Mahout 模糊 kmeans 聚类？

我在Amazon的EMR(AMI2.3.1)上运行Mahout0.7模糊k-means集群，并且我的内存不足。我的总体问题:如何最轻松地让它发挥作用？这是一个调用:./bin/mahoutfkmeans\--inputs3://.../foo/vectors.seq\--outputs3://.../foo/fuzzyk2\--numClusters128\--clusterss3://.../foo/initial_clusters/\--maxIter20\--m2\--methodmapreduce\--distanceMeasureorg.apache.mahout.commo

耗尽何在 java apache hadoop cluster-analysis mahout k-means

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类，输入文件是“KMeansData.csv”，数据是这种格式，John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤，它们是，./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

hadoop apache Mahout parsedtext machine-learning k-means

java - 键值对的聚类

我有这个问题。我有一组非常大(以百万计)的键值对，其中某个唯一ID作为键，一个字符串作为值(对于2个或更多键，字符串可能完全相似)。我必须将这些键值对组合在一起，因为第1组包含一些id-string对，第2组包含一些其他对等。需要根据字符串之间的相似性进行分组，这些字符串实际上是对的值。我已经在这些字符串之间实现了Levenshtein距离，并将距离小于阈值距离的对分组在一起。我用传统的(非常糟糕的)方式实现了它:将每个字符串相互比较。我需要一些关于如何优化它的提示。我真的可以在Hadoop中使用Map-Reduce将键值对组合在一起吗？我认为map和reduce函数的输入是单独且独立

java 键值 section noreferrer noopener hadoop k-means hierarchical-clustering

hadoop - 计算 pig 列中单词的出现次数

我有一个文件，其中的行看起来像这样。('www.example.com','FirstNameLastName','12345','Firstname','Lastname','1967-05-16','Organizationname')使用PIG，我想计算文件中相同的“组织名称”出现的次数，并以以下格式输出'CountResult','www.example.com','FirstNameLastName','Organizationname'这是我到目前为止所做的尝试，我知道我在countOccurance行遗漏了一些东西，但无法弄清楚是什么:data=LOAD'data'AS(

单词 hadoop 39 data section count apache-pig

Hadoop WordCount 为所有单词提供 0 个计数

我在使用hadoop中的WordCount程序时遇到了问题。字数不正确，所有字都显示为0，但输出中存在所有不同的字。这是我的示例数据，已加载到hdfs中#filename:file01.txtHelloWorldByeWorld和#filename:file02.txtHelloHadoopByeHadoop这是来源:importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.mapred.*;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.io.

单词 WordCount IntWritable Text jobConf hadoop mapreduce

lucene - 单词共现 - 在一组 n-gram 中找到一个术语的共现

我将如何着手编写一个类似Java的同现类，它需要一个充满n-gram的文件并计算给定输入术语的词同现。是否有任何库或包可以与Lucene(索引)或类似Hadoop中n-gram列表的map-reduce一起工作？谢谢。最佳答案好吧，假设你想在一个ngram文件中找到两个不同单词的共现......这是伪代码式的Java://Co-occurrencematrixHashmap>map=newHashMap();//ListofngramsArrayList>ngrams=.....//assumewe'veloadedthemin

单词 lucene section String ArrayList hadoop nlp weka

hadoop - Hadoop 的分区器，用于 key 的前两个单词

当我执行Hadoop流式处理时。有映射器的输出(键，值)键是用空格分隔的单词序列。我想使用返回前两个单词的哈希值的分区器。所以，实现为publicstaticclassCounterPartitionerextendsPartitioner{@OverridepublicintgetPartition(Textkey,IntWritablevalue,intnumPartitions){String[]line=key.toString().split("");Stringprefix=(line.length>1)?(line[0]+line[1]):line[0];return(p

单词 hadoop section output mapreduce

Hadoop Word Count 工作但不能总结单词

我使用的是Hadoop1.2.1，出于某种原因，我的WordCount输出看起来很奇怪:输入文件:thisisspartathiswasspartahelloworldgoodbyeworldhdfs输出:goodbye1hello1is1sparta1sparta1this1this1was1world1world1代码:publicclassWordCount{publicstaticclassMapextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();p

单词 Hadoop JobClient mapred INFO mapreduce word-count

hadoop - mahout kmeans 聚类 : showing error

我试图在mahout中对数据进行聚类。显示错误。这是错误java.lang.ArrayIndexOutOfBoundsException:0atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.populateClusterModels(ClusterClassificationMapper.java:129)atorg.apache.mahout.clustering.classify.ClusterClassificationMapper.setup(ClusterClassificationMapp

showing hadoop cluster apache new mahout k-means

regex - Hive with Regex SerDe 拆分行，每个单词成为一列

我正在尝试使用正则表达式SerDe从文本文件创建配置单元表。我开始很容易，只想将文本文档中的每个单词解析成一行。每行有一列，就是单词。我使用的正则表达式是([a-zA-z]+)这是我向hive发出的创建表命令的后半部分，行格式SERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="([a-zA-Z]+)","output.format.string"="%1$s")存储为文本文件；目前该表几乎全部为NULL。任何帮助都会很棒，谢谢! 最

单词 regex section input hadoop hive

157 158 159160161 162 163